Eksploracyjna Analiza Danych Najlepiej Ocenianych Filmów na IMDB

Wszystkie dane pochodzą z serwisu Kaggle Dzięki dla Ashish Jangra za stworzenie zbioru danych.



Dataset składa się z podstawowych danych z platformy IMDB. Pośród nich, można znaleźć informacje na temat obsady, reżyserów i scenarzystów, co umożliwia mi odnalezienie największych gwiazd świata filmów. Swoje analizy wzbogaciłem również analizą danych o gatunkach filmów.


Wstępna Analiza Danych Liczbowych

##                    rank        year duration imbd_votes imdb_rating
## rank         1.00000000 -0.05029854       NA -0.5505937 -0.84739319
## year        -0.05029854  1.00000000       NA  0.4125686  0.03555815
## duration             NA          NA        1         NA          NA
## imbd_votes  -0.55059367  0.41256856       NA  1.0000000  0.58732311
## imdb_rating -0.84739319  0.03555815       NA  0.5873231  1.00000000
## 
##  The movie with NAN in duration variable: Das Boot 1981

Natrafiając na braki danych, zamiast wykluczać je z kalkulacji, bardzo łatwo jest je zastąpić posiłkując się internetem. Tutaj powodem problemu jest niemiecki film “Das Boot” autorstwa Wolfganga Petersena. To film wojenny z 1981 roku trwający 149 minut.


##                    rank        year   duration imbd_votes imdb_rating
## rank         1.00000000 -0.05029854 -0.2201430 -0.5505937 -0.84739319
## year        -0.05029854  1.00000000  0.1226217  0.4125686  0.03555815
## duration    -0.22014304  0.12262169  1.0000000  0.2127277  0.28883846
## imbd_votes  -0.55059367  0.41256856  0.2127277  1.0000000  0.58732311
## imdb_rating -0.84739319  0.03555815  0.2888385  0.5873231  1.00000000

Poza oczywistym powiązaniem ze sobą oceny i pozycji w rankingu, żadna zmienna liczbowa nie wchodzi w silną korelację z innymi.


Analiza danych o gatunkach filmów


Każdy film, ma przypisany do siebie przynajmniej jeden gatunek (choć najczęściej jest ich po kilka). Dramat jest najczęściej występującym gatunkiem wśród 250 filmów, aż 177 filmów jest przypisanych do tej kategorii. Jak widać, gatunki o najwyższym poziomie ogólności są usytuowane na pierwszym miejscu (Dramat, przygoda, kryminał, akcja, komedia itp.)

Posłużywszy się większym Datasetem z większą ilością próbek niż 250, dałoby się obliczyć jak poszczególne powiązania gatunków wpływają na ich wyniki.


Gatunek, a rok produkcji


Wykres przedstawia gatunki uporządkowane wg roku produkcji. Świetnie pokazuje w jakim czasie poszczególne gatunki zyskiwały serca widzów. Dobrym przykładem jest animacja, usytuowana na pierwszym miejscu, która wraz z rozwojem technologicznym niosącym ze sobą widowiskowość animacji, stanęła w świetle reflektorów. Szczególnie ciekawą pozycją, jest tu gatunek horrorów. Jak wiadomo horrory od lat produkuje się hurtowo, ale nieliczne z około lat 80 przetrwały próbę czasu i nadal cieszą się poważaniem. Filmy Noir usytuowane na ostatnim miejscu reprezentują gatunek, który od dłuższego czasu jest mniej popularny.


Gatunek, a ocena


Na wykresie uporządkowano gatunki wg rosnącej średniej oceny. Rozstęp oceny w datasecie wynosi jedynie 1.3 punkty, w związku z tym nie da się przedstawić wiążącego wyniku.


Gatunek, a czas trwania


Wykres przedstawia gatunki uporządkowane wedle średniego czasu trwania. Można na nim zaobserwować wiele ciekawych zjawisk, międzyinnymi widać jak filmy o potencjalnie wysokim koszcie produkcji: animacje, fantasy. Mają krótki średni czas trwania. Do tego dochodzi też efekt, w którym filmy o lekkim charakterze (romans, family, comedy, musical, animation) mają krótki czas trwania. Natomiast filmy specjalizujące się trzymaniem w nieustannym napięciu (action, war) mogą pozwolić sobie na długi czas trwania. To samo dotyczy filmów które kojarzymy z powolnym tempem (biography, history).



Kilka szczególnie krótkich i szczególnie długich filmów przykuło moją uwagę. Okazało się, że każdy z nich jest bardzo starym filmem. Zbadajmy czy jest różnica pomiędzy starymi, a nowymi filmami w kwestii czasu trwania.


## # A tibble: 7 × 3
##   Metrics            `Before 1960` `After 1960`
##   <chr>              <chr>         <chr>       
## 1 Mean_Duration      118.4         131.57      
## 2 Standard_deviation 35.48         27.99       
## 3 Percentile: 5th    74.65         90.95       
## 4 Percentile: 25th   98.25         112.75      
## 5 Median             111           129         
## 6 Percentile: 75th   130           148.25      
## 7 Percentile: 95th   194.05        180.05

Stare filmy, mają mniejszy średni czas trwania, chociaż rozstęp czasu trwania i odchylenie standardowe są dużo wyższe, co częściowo może być związane z tym, że rynek filmowy jeszcze się nie ustabilizował, a preferencje konsumentów nie były zupełnie jasne. Do tego dochodzą też koszty i trudności w produkcji itd itp.


Gatunek, a ilość głosów


A teraz czas na konkurs popularności: które gatunki otrzymały średnio największą ilość głosów. Jak się okazuje filmy z dużym nakładem i z dużym rozmachem produkcyjnym (Sci-Fi, Action, Crime, Adventure, Fantasy), które doskonale potrafią przykuć i zatrzymać uwagę widzów, cieszą się zdecydowanie najwyższym zainteresowaniem. Na najniższych z kolei miejscach figuruje kino bardziej niszowe (noir, musical) oraz filmy których widownia jest albo za młoda, albo za stara aby głosować (war, family).


Największe gwiazdy spośród aktorów

## 
##    1    2    3    4    5    6    7    9 
## 3421  291   81   25    7    4    3    1

Spośród 3833 Aktorów w Datasecie 3421 Aktorów zagrała tylko w jednym filmie spośród 250 najlepszych. A spośród 412 osób będących wielokrotnie gwiazdą wielkiego kina, na pierwsze miejsce wysuwa się Robert De Niro grający w 9 spośród 250 najlepszych filmów. Ma on 2 filmy przewagi ponad każdym innym aktorem, a w dodatku w puli jego filmów nie znajduje się żadna seria filmowa.



Rozkład ilości aktorów z liczbą filmów 4 lub większą. Troszkę przypomina rozkład Pareto


Gwiazdy kina wśród reżyserów

## 
##   1   2   3   4   5   6   7 
## 128  26  11   3   3   1   5

Spośród 177 reżyserów 128 zrobiło tylko 1 film. Tutaj na podium stanęło aż 7 twórców!



Tych nazwisk nie trzeba nikomu przedstawiać. Zarówno twórcy, jak i ich filmy nieustannie pojawiają się jako sztandarowe przykłady klasyki kina.


Gwiazdy kina wśród scenarzystów

## 
##   1   2   3   4   5   6   7 
## 372  38  12   5   6   1   2



Rozkład u scenarzystów tak samo jak na pozostałych pozycjach przypomina nieco rozkład pareto, może przy większym datasecie dałoby się doszukiwać jakiejś zależności.



Wśród scenarzystów, możemy zaobserwować takie perły jak Kubrick, Kurosawa i Nolan. Którzy zasłynęli zarówno jako reżyserowie jak i scenarzyści.


Dziękuję za uwagę!